AI術語「Token」獲中國內地官方正式定名「詞元」🤖
人工智能熱潮席捲全球,一個關鍵術語的中文譯名之爭終於落幕。今年3月,內地官方正式將AI大型語言模型(大模型)中的核心單位「Token」,定名為「詞元」,為業界長久以來的譯名混亂畫上句號。
📋 官方定名始末
今年3月24日,中國政府網轉發人民日報援引國家數據局的文章,文中以「我們日均詞元調用量突破140萬億」一句,正式確立「詞元」為Token的中文規範譯名。國家數據局局長劉烈宏在中國發展高層論壇2026年年會上亦明確指出,詞元是「大模型處理訊息的最小單元」,具備「可計量、可定價、可交易」三大特徵,是連接技術供應與商業需求的「結算單位」。
此前,Token在中文世界有「代幣」、「令牌」、「標記」等多種叫法,莫衷一是,令普通市民難以理解。據詞典應用後台數據顯示,今年2月下旬起「Token」的每日搜尋量急升,最高一天達7.7萬次,較去年日均搜尋量高出逾1,850%。
🔍 「詞元」究竟是甚麼?
詞元是AI理解人類語言的最小單位。當用戶輸入一段文字,大模型會先將文字拆解成一個個詞元,再將這些詞元轉化為數值進行運算,最後逐一生成回應。換言之,無論是與AI對話、叫AI撰寫電郵或生成程式碼,所有輸入與輸出均以詞元數量計算。
觸發今次討論熱潮的,是一宗廣受關注的新聞:一名14歲少年憑藉在AI平台上「養殖龍蝦」,奪得100億個Token獎勵,令不少市民首度注意到這個概念。目前中國內地的日均詞元調用量已突破140萬億,僅三個月內便急增逾四成,反映AI產業正進入高速落地階段。
✂️ 詞元如何切分?
文字被拆解成詞元的方式,因模型而異。各大AI公司在訓練模型前,均以龐大語料庫訓練專屬的「分詞器」(Tokenizer),一旦訓練完成,切分規則即固定不變,並非全業界劃一的通用標準。目前主流方法包括OpenAI帶頭推廣的「字節對編碼」(Byte Pair Encoding,BPE),以及Google旗下BERT採用的WordPiece,兩者均屬「次詞元分詞」技術——即將文字拆解成有意義的字詞片段、前綴或後綴,而非機械地以整個單詞為單位劃分。
正因切分方式因模型而異,坊間流傳的換算比率只屬估算,並非絕對數字。英文方面,平均每個詞元約對應0.75個英文字,即每1,000個詞元約能容納750個英文單字,這是OpenAI公開工具所示的通用估算,實際數字仍視乎詞語長度及標點符號而有所浮動。中文情況則更為複雜:以百度、阿里等內地大模型為例,訓練語料中包含大量中文,一般一個漢字對應一個詞元;但在ChatGPT等英文優先的模型中,中文往往被拆分得較為零碎,一個漢字有時需要1.5至2個詞元方能表達。
💰 與手機流量如出一轍
詞元的收費邏輯,與市民熟悉的手機數據流量極為相近——用得愈多,費用愈高。目前各大AI服務供應商均以詞元作為計費單位,用戶購買AI服務套餐時,購入的正是一定數量的詞元使用配額。
========
內容由 Ai Marketer HK 提供
#AIMarketerHK #DigitalMarketing #token
